Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies
Identifieur interne : 001953 ( Main/Exploration ); précédent : 001952; suivant : 001954Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies
Auteurs : Pascal Vaillant [France] ; Laurence Likforman [France] ; Sulem Francois Yvon [France]Source :
Descripteurs français
- Pascal (Inist)
- Wicri :
- topic : Télécopie.
English descriptors
- KwdEn :
Abstract
Dans le cadre d'une application de messagerie, il est indispensable de pouvoir donner à l'utilisateur des informations-clés sur chaque message qu'il reçoit, comme par exemple des mots-clés reflétant l'objet du message, ou le nom de l'expéditeur. Or si ces informations sont faciles à déterminer dans les courriers électroniques, il n'en est rien pour les télécopies, pour lesquelles aucune norme ne définit l'équivalent d'un en-tête. Le but du travail présenté ici est de reconnaître une information ciblée - le nom de l'expéditeur - dans le contenu d'une page initiale de télécopie. Pour cela, on utilise en même temps des méthodes fondées sur l'analyse du document image (reconnaissance OCR - Optical Character Recognition -, sélection des blocs physiques pertinents) et sur des méthodes d'analyse du contenu linguistique (recherche dans des dictionnaires optimisés, règles de grammaire locale), et l'on fait fusionner leurs résultats. On obtient ainsi un résultat plus fiable qu'en utilisant chacune des deux méthodes séparément.
Affiliations:
Links toward previous steps (curation, corpus...)
- to stream PascalFrancis, to step Corpus: 000600
- to stream PascalFrancis, to step Curation: 000191
- to stream PascalFrancis, to step Checkpoint: 000580
- to stream Main, to step Merge: 001A33
- to stream Main, to step Curation: 001953
Le document en format XML
<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="fr" level="a">Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies</title>
<author><name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author><name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author><name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">03-0421241</idno>
<date when="2002">2002</date>
<idno type="stanalyst">PASCAL 03-0421241 INIST</idno>
<idno type="RBID">Pascal:03-0421241</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000600</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000191</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000580</idno>
<idno type="wicri:Area/Main/Merge">001A33</idno>
<idno type="wicri:Area/Main/Curation">001953</idno>
<idno type="wicri:Area/Main/Exploration">001953</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="fr" level="a">Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies</title>
<author><name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author><name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author><name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
<affiliation wicri:level="3"><inist:fA14 i1="01"><s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName><region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Content analysis</term>
<term>Data fusion</term>
<term>Document image</term>
<term>Facsimile</term>
<term>Image analysis</term>
<term>Information extraction</term>
<term>Optical character recognition</term>
<term>Proper noun</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Télécopie</term>
<term>Extraction information</term>
<term>Nom propre</term>
<term>Analyse image</term>
<term>Reconnaissance optique caractère</term>
<term>Analyse contenu</term>
<term>Fusion donnée</term>
<term>Document image</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr"><term>Télécopie</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="fr">Dans le cadre d'une application de messagerie, il est indispensable de pouvoir donner à l'utilisateur des informations-clés sur chaque message qu'il reçoit, comme par exemple des mots-clés reflétant l'objet du message, ou le nom de l'expéditeur. Or si ces informations sont faciles à déterminer dans les courriers électroniques, il n'en est rien pour les télécopies, pour lesquelles aucune norme ne définit l'équivalent d'un en-tête. Le but du travail présenté ici est de reconnaître une information ciblée - le nom de l'expéditeur - dans le contenu d'une page initiale de télécopie. Pour cela, on utilise en même temps des méthodes fondées sur l'analyse du document image (reconnaissance OCR - Optical Character Recognition -, sélection des blocs physiques pertinents) et sur des méthodes d'analyse du contenu linguistique (recherche dans des dictionnaires optimisés, règles de grammaire locale), et l'on fait fusionner leurs résultats. On obtient ainsi un résultat plus fiable qu'en utilisant chacune des deux méthodes séparément.</div>
</front>
</TEI>
<affiliations><list><country><li>France</li>
</country>
<region><li>Île-de-France</li>
</region>
<settlement><li>Paris</li>
</settlement>
</list>
<tree><country name="France"><region name="Île-de-France"><name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
</region>
<name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
</country>
</tree>
</affiliations>
</record>
Pour manipuler ce document sous Unix (Dilib)
EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001953 | SxmlIndent | more
Ou
HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001953 | SxmlIndent | more
Pour mettre un lien sur cette page dans le réseau Wicri
{{Explor lien |wiki= Ticri/CIDE |area= OcrV1 |flux= Main |étape= Exploration |type= RBID |clé= Pascal:03-0421241 |texte= Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies }}
This area was generated with Dilib version V0.6.32. |